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摘要 :新 一 代 信息 技术 的 兴起 以 及 互联 网 产业 的 飞速 发 展 使 得 数据 量 呈 爆炸 式 增长 。 为 满足 数 十 亿 用 户 从 海量 数据 中 
快速 获取 有 效 信息 的 需求 ,提升 搜索 引擎 的 检索 质量 以 及 查询 效率 具有 重要 意义 ,同时 也 面临 挑战 。 一 方面 ,用 户 的 查询 
_ 词 日 益 复 杂 , 语 言词 汇 形态 变异 的 特点 导致 检索 词 变 得 多 样 化 ,而 现 有 词 干 提取 算法 普遍 存在 词 干 提取 不 足 , 词 干 提取 准 
淘 率 不 高 等 问题 ; 另 一 方面 ,在 海量 数据 中 检索 到 满足 用 户 查询 要 求 的 文档 结果 是 一 项 非常 耗 时 的 任务 ,而 现 有 将 文档 划 
到 多 个 服务 器 处 理 查 询 延迟 的 方法 常常 会 出 现 尾 延迟 问题 。 针 对 以 上 问题 ,在 文本 预 处 理 阶段 ,设计 了 词 形 规范 化 算法 
Ps, 对 规则 函数 进行 重 编码 ,优化 了 特征 词 提取 ;在 相关 排序 阶段 ,设计 了 基于 一 次 一 得 分 查询 处 理 策略 的 随时 排序 算法 
AAR, 在 给 定时 间 预 算 处 理 完 指定 数量 倒 排 段 后 能 够 提前 终止 查询 过 程 ,大 大 减少 了 查询 评估 时 间 。 在 多 个 真实 数据 集 上 
GTT KR RIET APS 算法 对 于 提高 词 干 提取 准确 率 的 有 效 性 以 及 SAR 算法 对 于 控制 查询 延迟 的 真实 性 。 
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Abstract; The rise of a new generation of information technology and the rapid development of the internet industry have led 
to an explosive growth in the amount of data. In order to meet the needs of billions of users to obtain effective information 
from massive data quickly, it is of great significance to improve the retrieval quality and query efficiency of search engines, 
but it also faces challenges. On the one hand, the query words of users are becoming more and more complex, and the char- 
acteristics of the morphological variation of language vocabulary lead to the diversification of search words, while existing 
stemming algorithms generally suffer from under stemming and unsatisfactory stemming accuracy; On the other hand, it is 
a very time-consuming task to retrieve document results that meet user query requirements from massive data, and existing 
methods of dividing documents into multiple servers to handle query latency often suffer from tail latency problems. In view 
of the above problems, in the text preprocessing stage, the word form normalization algorithm APS (advanced porter stem- 
mer) is designed, the rule function is recoded, and the feature word extraction is optimized; In the related ranking stage, the 
anytime ranking algorithm SAR (SAAT anytime ranking) is designed based on the score-at-a-Time query processing strate- 
gy» which can terminate the query process in advance after a given time budget or processing a specified number of inverted 


segments and control the query delay effectively. Experiments are carried out on multiple real datasets to verify the effective- 
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ness of the APS algorithm in improving the accuracy of stemming and the authenticity of the SAR algorithm in controlling 


query latency. 
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云 计算 .大 数据 等 新 技术 的 兴起 ,以 及 电子 商务 、 
网 络 自 媒体 娱乐 通讯 等 互联 网 产业 的 莲 勃 发 展 使 得 
信息 量 呈 现 指数 级 增长 。 据 统计 ,全球 每 年 产生 的 
数据 量 高 达 1 一 2 EB, 其 中 非 纸 质 信息 就 占 了 
99.7%。 尽 管 大 数据 技术 深度 学 习 以 及 神经 网 络 计 
算 能 力 的 进步 加 速 了 信息 处 理 能 力 的 提升 ,但 对 信息 
过 载 问题 的 缓解 仍旧 微 平 其 微 。 在 关注 度 有 限 的 情 
况 下 ,如 何 短 时 间 内 从 指数 级 增长 的 数据 中 获取 有 效 
信息 成 为 了 亟待 解决 的 问题 ,而 搜索 引擎 则 是 人 们 提 
取信 息 的 有 效 方式 之 一 。 

三 随 着 互联 网 行业 的 快速 发 展 ,搜索 用 户 的 信息 需 
求 加 益 复杂 ,同时 检索 词 也 逐渐 变 得 多 样 化 ,一 个 词 
党 有 多 种 不 同形 态 , 这 些 都 对 语料库 学 习 的 准确 度 产 
HEER, MARAA , 若 检索 词 未 进行 词 形 规范 
化 * 可 能 会 造成 重要 的 检索 结果 缺失 或 存在 过 多 无 关 
的 六 档 出 现在 检索 结果 列表 的 情况 ,而 若 检索 词 为 主 
题词 表 中 的 词语 , 则 能 有 效 提高 检索 结果 的 准确 率 与 
碍 念 率 。 因 此 ,在 信息 检索 与 文本 控 据 研究 中 ,需要 
对 说 词 进行 归 一 化 处 理 , 以 提高 文本 处 理 的 效率 ,其 
中 词 干 提取 是 词 形 归 一 化 的 核心 技术 之 一 。 然 而 现 
存 铭 词 干 提取 算法 普遍 存在 词 干 提取 不 足 、 词 干 提取 
准确 率 不 高 等 问题 ,无 法 有 效 改 善 庞大 的 文本 词汇 量 
与 关键 词 特征 缺失 的 矛盾 问题 ,导致 搜索 引擎 的 时 空 
复 索 度 偏 高 而 查询 效率 偏 低 。 为 解决 文本 查询 处 理 
面 枸 的 “高 维 - 稀 疏 ” 问 题 ,通过 优化 词 干 分 析 算法 对 
文本 向 量 空间 进行 降 维 处 理 ,以 减少 词 项 的 数量 ,从 
而 提高 文本 处 理 效率 。 

此 外 ,为 了 减少 系统 在 相关 排序 过 程 中 的 时 间 及 
硬件 资源 消耗 ,查询 优化 技术 逐渐 受到 学 术 界 及 工业 
界 的 重视 。 其 中 ,topk 查询 排序 是 信息 检索 领域 广 
泛 应 用 的 查询 处 理 优化 技术 之 一 。 相 关 文 档 top-k 
排序 基于 查询 -文档 的 相似 度 得 分 ,以 及 具体 的 得 分 
聚合 函数 从 海量 文本 数据 中 返回 k 个 最 大 的 得 分 排 
名 结果 。 现 有 的 top-k 排序 研究 大 多 是 确定 了 整体 
的 top 结果 后 , 才 会 停止 排序 过 程 。 尽 管 这 种 方式 


大 规模 分 布 式 系统 来 说 , 尾 延 迟 现象 更 加 普遍 , 甚 
至 会 严重 影响 服务 的 整体 性 能 。 而 随时 排序 算法 
能 够 在 给 定时 间 预 算 内 或 给 定 倒 排 段 处 理 数量 下 ， 
随时 停止 检索 过 程 ,从 而 控制 查询 延迟 。 因 此 , 当 
存在 一 定 查询 负载 时 ,利用 随时 排序 算法 能 够 大 大 
降低 整个 系统 的 资源 损耗 及 维护 成 本 ,解决 普遍 存 
在 的 高 百分比 尾 延迟 问题 "2 ,以 适应 服务 水 平 协议 
对 响应 时 间 的 要 求 。 

基于 对 上 述 问题 的 思考 ,在 文本 预 处 理 与 相关 排 
序 2 个 方面 进行 了 深入 研究 : 

首先 ,在 文本 预 处 理 阶段 ,设计 了 词 形 规范 化 算 
法 (advanced porter stemmer, 简称 APS) ,解决 了 现 
有 算法 存在 的 词 干 提取 不 足 、 词 干 提 取 准 确 率 高 等 问 
题 。 该 算法 基于 屈折 派生 形态 学 调整 了 规则 函数 的 
定义 ,优化 了 特征 词 提取 ,并 且 补 充 了 不 规则 动词 以 
及 知 干 后 缀 的 处 理 ,同时 添加 了 对 停 用 词 过 滤 的 文 
持 。 针 对 APS 算法 的 评价 ,在 3 个 真实 的 数据 集 上 
开展 实验 ,验证 了 APS 优化 算法 对 于 解决 词 干 不 足 
问题 的 有 效 性 以 及 提高 词 干 提取 准确 率 的 真实 性 。 

其 次 ,在 相关 排序 阶段 ,设计 了 基于 一 次 一 得 分 
(score-at-a-time, fal #K SAAT) 查 询 处 理 策略 的 随时 
排序 算法 (SAAT-anytime ranking, 简称 SAR)。 该 
算法 能 够 在 处 理 完 指定 数量 的 倒 排 段 后 或 给 定时 间 
预算 内 提前 终止 查询 过 程 ,大 大 减少 了 查询 评估 延迟 
时 间 ,在 牺牲 可 接受 范围 内 检索 质量 的 情况 下 ,能够 
返回 较为 准确 的 检索 结果 ,解决 了 现 有 方法 普遍 存在 
的 尾 延 迟 问 题 。 在 2 个 真实 的 大 型 TREC 标准 数据 
集 ClueWeb09b 和 ClueWeb12-B13 上 进行 了 实验 ， 
通过 检索 质量 评价 指标 nDCG@ 10 对 SAR 算法 进 
行 了 评估 ,并 记录 了 在 给 定时 间 预 算 下 的 查询 延迟 、 
减少 的 倒 排 段 处 理 数量 ,验证 了 SAR 算法 对 于 控制 
尾部 延迟 时 间 的 有 效 性 。 


1 相关 工作 
近年 来 ,搜索 引擎 的 优化 问题 已 被 广泛 研究 。 在 


通过 详尽 遍历 所 有 文档 和 词 项 能 够 保证 检索 质量 ,但 
同时 对 海量 文档 的 处 理 也 产生 了 不 可 忽视 的 查询 延 
B. DRE ASO ,响应 时 间 过 长 直接 影响 用 户 体 
验 ,造成 潜在 利益 的 巨大 损失 。 目 前 对 于 查询 延迟 
的 处 理 , 大 多 通过 将 文档 集合 划分 到 若干 服务 器 来 
管理 ,但 这 种 方式 仍 存在 尾 延 迟 5 的 问题 。 对 于 


互联 网 信息 量 以 指数 级 增长 ,信息 过 载 问 题 愈 发 严峻 
的 时 代 背 景 下 ,如何 尽快 找到 满足 用 户 需 求 的 文档 内 
容 , 提 高 信息 检索 的 效率 日 益 成 为 研究 者 关注 的 焦点 
问题 ,这 也 为 科学 人 研究 提供 了 动力 。 本 节 将 主要 围绕 
词 干 提取 与 相关 查询 2 个 方面 对 以 往 工作 进行 总 结 
概括 。 
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1.1 词 干 提取 


根据 词 干 提取 方法 的 实现 原理 ,可 以 将 其 归 为 4 
类 :基于 规则 的 词 级 删除 方法 中、 基于 词典 查找 的 
方法 "中 、 基 于 单词 分 布 规 律 的 统计 方法 ”下 以 及 混 
合 方法 中 中 。 基 于 词典 查找 的 方法 在 权威 词典 的 支 
持 下 ,结果 更 加 准确 ,能 够 处 理 部 分 不 规则 变换 词 ,但 
遍历 词典 查找 费时 且 对 词典 具有 依赖 性 。 基 于 统计 
的 方法 主要 是 针对 词典 中 未 收录 的 词 以 及 不 规则 变 
化 词 ,通过 统计 单词 规律 对 单词 进行 规范 化 ,因此 不 
受 语种 限制 ,但 识别 出 的 词 干 误差 较 大 , 且 准 确 率 不 
稳定 。 二 者 更 适用 于 对 小 语种 单词 的 词 干 提取 。 而 
混合 型 方法 虽然 融合 了 多 种 方法 的 优势 , 词 干 提取 的 
准确 率 更 高 ,但 算法 流程 复杂 ,需要 考虑 的 因素 过 多 ， 
且 需 要 多 种 背景 知识 的 支持 ,因此 限制 较 大 ,效率 较 
低 习 而 基于 规则 的 词缀 删除 方法 能 够 快速 处 理 常规 
词 的 变换 ,适用 范围 更 广 。 因此 ,主要 针对 基于 规则 
的 洞 级 删除 方法 进行 改进 优化 。 

二 基于 规则 的 词 级 删除 方法 利用 单词 届 折 派生 形 
态 申 具备 的 内 在 规律 ,对 单词 中 的 词 级 进行 处 理 ， 
1968 年 ,Lovinsp 提出 了 有 效 的 同名 词 干 提取 Lov- 
ix& 算 法 ,该 算法 基于 最 长 匹配 原则 对 照 词缀 列表 去 
除 前 词 后 绥 后 ,匹配 规则 列表 中 的 转换 规则 ,重新 对 
单词 进行 编码 ,将 词 干 转换 为 有 效 单 词 ,最终 提 取出 
词 息 。 其 优点 是 规则 简单 ,上 且 能 够 处 理 某 些 乔 词 结尾 
的 草 词 以 及 不 规则 单词 复数 ;但 缺点 是 非常 耗 时 , 且 
词 手 提取 的 准确 率 不 高 。 针 对 Lovins 算法 的 规则 和 
吗 配 方法 存在 的 不 足 ， Dawson! 提出 了 同名 方法 
Dawson 算法 。 该 算法 基于 部 分 匹配 的 思想 ,在 限制 
条 件 下 匹配 相同 词 干 ,扩展 了 Lovins 算法 ,并 解决 了 
拼写 异常 问题 。Dawson ik ee AEE ERA, 
此 执行 速度 快 ,但 该 算法 的 缺点 是 复杂 , 且 缺 乏 标准 
的 可 重用 实现 。Lancaster(Paice/Husk)55 算 法 是 一 
种 迭代 算法 ,通过 判断 是 否 需 要 再 次 提取 词 干 循环 执 
行 匹配 流程 。 该 算法 通过 将 单词 最 后 一 个 字符 作为 
索引 寻找 适用 规则 ,每 条 规则 决定 是 否 对 后 绥 进 行 删 
除 或 蔡 换 , 若 规则 不 匹配 或 满足 词 干 提取 结束 条 件 ， 
则 终止 流程 ,输出 词 干 。Lancaster 算法 的 优点 是 ,每 
次 迭代 都 会 应 用 规则 进行 删除 和 替换 ,降低 了 词 干 提 
取 不 足 的 概率 ;但 缺点 是 算法 繁杂 ,可 能 会 出 现 词 干 
过 度 提 取 的 情况 。Porter Stemmer (Jk Pin] FO” 
算法 自 提出 以 来 便 广 受 欢迎 , 现 已 广泛 应 用 于 信息 检 
索 领域 以 及 多 种 检索 系统 中 ,如 Lucene, Solr 等 。 波 
特 词 干 算法 对 许多 基本 算法 进行 了 改进 和 优化 ,主要 
用 于 对 英文 单词 中 通用 形态 以 及 届 折 词缀 进行 剔除 。 


尽管 该 算法 在 多 种 算法 基础 上 做 出 了 改进 ,但 缺乏 对 
不 规则 动词 ,不 规则 名 词 复数 以 及 多 种 词缀 的 考虑 ， 
因此 仍 存 在 词 干 提取 不 足以 及 词 干 提取 准确 率 不 高 
等 问题 , 需 进一步 优化 ，。 


1.2 相关 排序 


将 文档 数据 与 查询 信息 进行 预 处 理 后 ,需要 对 文 
档 和 查询 的 相关 度 进行 计算 ,进而 根据 得 分 高 低 对 相 
关 文 档 进行 排序 ,最 后 返回 给 用 户 得 分 top-k 的 文档 
结果 ,这 个 排序 的 过 程 称 为 相关 排序 。 目 前 搜索 引擎 
的 排序 策略 往往 建立 在 所 有 文档 的 相关 度 得 分 上 , 然 
而 穷尽 处 理 所 有 候选 结果 所 花费 的 时 间 和 资源 开销 
过 大 。 在 当下 互联 网 的 数据 规模 以 指数 级 增长 的 背 
景 下 ,为 了 提升 查询 性 能 ,相关 优化 技术 不 断 推 陈 出 
新 。 目 前 主流 的 查询 效率 优化 技术 包括 剪 枝 算法 、 选 
择 搜 索 以 及 随时 排序 算法 等 。 

动态 剪 枝 算法 以 处 理 尽 可 能 少 的 相关 文档 为 目 
标 , 采 用 跳跃 式 访 问 倒 排列 表 的 方式 来 减少 对 无 关 或 
相关 度 较 低 的 文档 的 处 理 , 避 免 对 所 有 文档 的 遍历 和 
访问 ,从 而 提高 查询 效率 。 动 态 前 村 算法 能 够 保证 
top-k 个 文档 列表 的 计算 是 安全 的 ,也 就 是 说 使 用 动 
态 剪 校 算法 与 穷尽 查询 方法 得 到 的 查询 结果 相同 。 
常用 的 动态 剪 枝 算法 有 MaxScore”! , WAND 、 
BMWE 5 以 及 VBMW52 等 。 但 有 研究 表明 [5 , 剪 
村 算法 执行 尾部 查询 所 花费 的 时 间 比 平均 查询 延迟 
时 间 要 多 阁 干 数量 级 。 

选择 搜索 在 搜索 构建 时 ,将 文档 集合 按照 主题 划 
分 ,理想 情况 下 每 个 分 片 都 包含 一 组 主题 相关 的 文 
PACS 。 传 人 的 每 个 用 户 查 询 都 由 代理 流程 预测 被 
划分 的 集合 分 片 ,然后 由 划分 的 分 片 处 理 查询 ,最 后 
将 分 片 结果 汇总 。 每 个 分 片 的 处 理 过 程 都 能 应 用 动 
态 剪 校 算法 。 该 方法 的 优点 是 ,能 够 有 效 减 少 工作 负 
载 ,查询 效率 高 ; 但 缺点 是 ,由 于 只 有 部 分 分 片 对 查 
询 进 行 处 理 , 算 法 得 到 的 结果 可 能 会 与 穷尽 查询 算法 
得 到 的 结果 有 所 偏差 。 

随时 排序 算法 实现 基于 影响 力 排序 的 索引 (im- 
pact-ordered index) 。 相 对 于 一 次 一 文档 (term-at-a- 
time) 查 询 处 理 策略 , SAAT 查询 策略 能 够 根据 影响 
力 得 分 来 处 理 文档 的 优先 级 3, 可 在 避免 遍历 所 有 
文档 的 情况 下 ,输出 较为 准确 的 排序 结果 ,更 有 利于 
提前 终止 文档 相关 度 计算 流程 ,这 与 随时 排序 的 目标 
相同 ,因此 随时 排序 算法 大 都 基于 SAAT 策略 。 当 
响应 时 间 预 和 完 由 服务 水 平 协议 确定 时 ,查询 处 理 过 程 
必须 支持 可 中 断 , 随 时 排序 算法 针对 此 类 情况 给 出 了 
解决 方案 。 随 时 排序 算法 在 给 定时 间 预 算 内 返回 尽 
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可 能 准确 的 结果 , 且 检 索 结 果 质 量 随 着 预算 时 间 的 延 
长 而 成 正比 提升 5 。 基 于 以 上 理论 ,在 相关 排序 阶 
段 通过 设计 基于 SAAT 策略 的 随时 排序 算法 来 控制 
查询 延迟 时 间 。 


2 基于 改进 Porter Stemmer 的 APS 算法 


针对 Porter Stemmer 存在 的 词 干 提取 不 足以 及 
词 干 提取 准确 率 不 高 等 问题 ,对 波 特 词 干 算法 进行 改 
进 , 设 计 了 了 APS 算法。 该 算法 重新 编码 了 规则 函数 ， 
优化 了 特征 词 提取 ,并 补充 了 不 规则 动词 以 及 若干 后 
级 的 处 理 , 同 时 添加 了 对 停 用 词 过 滤 的 支持 。 
为 使 算法 描述 更 清晰 , 首先 对 以 下 定义 进行 
WHH: 
二 定义 1 
Pd, 


Jù (Vowel). ayei,oyu 五 个 字母 。 
je (Consonant). KRIGE Ah AY eh 


定义 3 给 定单 词 工 ,以 词缀 Si 结尾 , 若 词 干 满 
是 指定 条 件 condition, 则 由 新 词缀 S 代替 Si , 即 : 

S (condition) S; > Sz. a) 

本 定义 4 届 折 形态 (Inflexion)。 单 词 或 词根 受 
RSE ma ,加 上 届 折 词缀 后 的 形态 ,包括 单词 复数 形 
式 如 “apples” 等 .不 同时 态 形式 如 “looked” 等 .以 及 分 
请 形式 如 “walking” 等 。 

2 定义 5 YRAEFEA (Morphological Derivation), 
租 词 或 词根 在 句法 范畴 基础 上 ,添加 实质 性 的 词缀 后 
ORAL NITES ,如 illegal, irregular 等 。 

:二 定义 6 #F (Double). HEAR A MR 
的 词缀 ,如 tt.mm,nn 等 。 

“定义 7 HAFA Double Suffix)。 由 多 个 词 
缀 整合 而 成 的 形态 , 如 由 general 附加 ize 后 级 和 
ation 后 级 整合 得 到 generalization, 其 中 generaliza- 
tion 的 词缀 为 复合 词缀 。 

APS 算 法 基于 英文 单词 形态 特征 及 届 折 派生 形 
态 学 ,针对 波 特 词 干 算法 存在 的 不 足 , 做 以 下 优化 : 

1]) 对 不 规则 动词 变 位 与 复数 的 特例 进行 补充 。 
波 特 词 干 算法 忽略 了 2 种 不 规则 词 形式 的 处 理 :中 不 
符合 任何 特征 规则 的 动词 ,例如 单词 "buy” 及 其 过 去 
式 “bought”。 对 于 此 类 情况 ,通过 枚 举 不 规则 动词 形 
式 进行 改 善 ;名 符合 一 般 规则 特征 的 单词 ,例如 以 - 
foot 结尾 的 单词 复数 形式 以 -feet 结尾 。 对 于 此 类 情 
况 , 通 过 添加 对 规则 的 补充 可 以 得 到 改善 。 表 1 为 波 
特 词 干 算法 与 APS 算法 处 理 前 后 的 对 照 示例 1。 

2) 对 以 -s 结尾 的 动词 及 其 分 词 形式 的 处 理 进 行 
优化 。 波 特 词 干 算法 对 于 以 -s 结尾 的 动词 分 词 形式 
的 处 理 方 式 是 直接 去 除 末 尾 的 -ed 或 -ing, 保留 末尾 


R1 波 特 词 干 算法 与 APS 算法 处 理 对 照 示例 1 


原 词 波 特 词 干 APS 规则 
child/children child/children child/child children-childr 
knife/knives knif/kniv knif/knif -knives~knife 


aviatrix/aviatrices aviatrix/aviatric  aviatrix/aviatrix -trices>trix 


的 -s。 在 该 规则 下 ,对 于 “focus” 与 其 复数 “focuses”， 
存在 将 “focuses” 转 化 为 词 干 “focus”, 而 将 “focus” 转 
化 为 “focu” 的 错 例 。 针 对 此 类 情况 ,通过 优化 规则 可 
以 改善 :车 以 -s 结尾 ,但 不 以 ss 结尾 的 单词 ,一 律 转 
化 为 s。 表 2 为 波 特 词 干 算法 与 APS 算法 处 理 前 后 
的 对 照 示例 2。 


R2 波 特 词 干 算法 与 APS 算法 处 理 对 照 示例 2 


原 词 波 特 词 干 APS 规则 
choru/ choru/ 
chorus/choruse/ 
chorus/ choru/ 
chorused/ 
. chorus/ choru/ 
chorusing h 
chorus choru 
-sed && | (-ssed)—>s 
-sing & &! (-ssing)>s 
focu/ focu/ S 
focus/focuses/ 
focus/ focu/ 
focused/ 
. focus/ focu/ 
focusing 
focus focu 


3) 对 以 -y 结尾 单词 的 词 干 合并 方式 进行 优化 。 
波 特 词 干 算法 对 于 以 -y 结尾 的 单词 的 处 理 方式 是 : 
若 包 含 元 音 , 则 将 -y 转变 为 -i; 男 外 ,针对 以 -ies 结 
的 单词 处 理 方式 是 :将 ies 转变 为 1。 这 种 规则 能 
确 处 理 包含 元 音 的 单词 ,例如 carry carries, marry 
一 marries 等 。 但 对 于 不 包含 元 音 的 词 干 则 不 适用 ， 
例如 cry-cries-cried, 则 会 被 转化 为 cry-cri-cri-cry. 
同 理 ,以 -ye 结尾 的 单词 也 不 适用 ,因为 末尾 的 。 最 终 
会 去 除 。 针 对 此 类 情况 ,通过 优化 规则 :首先 将 分 词 
后 缀 -es/-ed/-ing 去 除 ,然后 删除 规则 ”" 知 包 含 元 音 ， 
则 将 末尾 的 y 转变 为 ”, 即 保持 末尾 的 -y 不 变 。 表 3 
为 波 特 词 干 算法 与 APS 算 法 处 理 前 后 的 对 照 示例 3。 


表 3 波 特 词 干 算法 与 APS 算法 处 理 对 照 示例 3 


原 词 波 特 词 干 APS 
try/tries/tried/trying try/tri/tri/try ery/cry/ery/cry 
dye/dyes/dyed/dying dye/dyes/dyed/dying dy/dy/dy/dy 


4) 对 以 双 辅 音 结 尾 的 单词 及 其 衍生 词 的 处 理 进 
行 优化 。 波 特 词 干 算法 对 于 以 非 “1，、“s’ 或 “z? 双 辅 
音 结尾 单词 的 分 词 形式 处 理 方式 是 :去 除 一 个 辅音 ， 
保留 一 个 辅音 。 在 这 种 规则 下 ,会 出 现 错 将 单词 
“ebbed” 转 换 为 “eb”, 而 “ebb” 转 换 为 “eb” 的 错误 案 
例 。 另 外 , 若 存 在 以 -z 结尾 的 单词 ,但 其 分 词 加 了 对 


22070000091010 


358 桂林 电子 科技 大 学 学 报 


_ 3] RH. fbd 


ad HERRAT ETAY f e e, 
Cninax tv 口 1F 期 | IJ 


2022 年 10 月 


词 词缀 即 -zz, 例如 单词 “whiz” 的 过 去 分 词 “whizz”， 
“whiz” 本 身 会 转化 为 “whiz”, 而 过 去 分 词 “ whizz” W 
转化 为 "whiz”, 误 判 情况 出 现 。 针 对 以 上 情况 ,可 优 
化 规则 :删除 所 有 以 除 -1 双 辅 音 结尾 单词 的 辅音 字 
母 , 对 于 以 双 辅 音 -ll 结尾 的 单词 , 若 妈 二 1, 则 删除 一 
个 辅音 。 表 4 为 波 特 词 干 算法 与 APS 算法 处 理 前 后 
的 对 照 示例 4。 


表 4 波 特 词 干 算法 与 APS 算法 处 理 对 照 示例 4 


原 词 波 特 词 干 APS 
add/added/adding add/ad/ad ad/ad/ad 
staff{/staffed/staffing staff/staf/staf staf/staf/staf 
whiz/whizzes/whizzed whiz/whizz/whizz whiz/whiz/whiz 


本 5) 对 部 分 现在 分 词 以 及 过 去 分 词 衍生 词 的 处 理 
进 得 优化 ; 波 特 词 干 算法 忽略 了 对 现在 分 词 . 过 去 分 
词 衔 生词 的 处 理 ,例如 “study” 转 化 为 “studi”, 而 
“CtNqiedly” 却 转化 为 “studiedli”。 对 于 该 类 情况 的 处 
HEAPS 补充 了 对 该 类 词 的 转化 规则 。 表 5 为 波 特 
词 书 算法 与 APS 算法 处 理 对 照 示例 5。 

表 5 波 特 词 干 算法 与 APS 算法 处 理 对 照 示例 5 

原 词 波 特 词 干 APS 规则 


amage/amazed/ amaz/amaz/ amaz/amaz/ i 
QN . “Ye 
amazedly/ amazedli/ amaz/ 
> -ss>ed 
arflazedness amazed amaz 
S /studied/ studi/studi/ study/study/ er 
A š -ly™ 1e 
studiedness/ studied/ study/ _ 
人 ae -ss>-ied 
sttdiedly studiedli study 


-所 6) 补 充 了 若干 后 缀 的 处 理 。 针 对 波 特 词 干 算法 
2256 -tor sory、-ship 等 若干 词缀 ,APS 算法 进行 了 
补充 。 另 外 对 于 单词 的 复合 后 绥 的 漏 判 问题 ,通过 由 
后 绷 枚 举 所 有 可 能 的 复合 后 缀 进行 优化 。 例 如 ,由 词 
级 -ate 衍生 出 的 -ative、-atic 等 词缀 都 将 被 对 应 到 词 
组 -ate。 表 6 为 部 分 闻 绷 转换 示例 。 


表 6 APS 算法 词缀 转换 示例 


词缀 转换 规则 
-atization -atizationate 

-atist -atist>-ate 

-atism -atism—>-ate 


APS 算法 进行 词 干 提取 的 整体 流程 如 图 1 
所 示 。 由 图 1 可 知 , APS 算法 对 词 干 的 提取 主要 包 
括 5 个 步骤 :第 一 步 , 处 理 单词 的 屈折 形态 ,包括 单词 
的 复数 、 现 在 分 词 . 过 去 分 词 等 ,例如 将 “apples” 转 换 
为 “apple”, 将 “looked” 转 换 为 “look”; 第 二 步 ,根据 前 
文 描述 的 优化 工作 对 yi 的 规则 进行 重 编 码 ,例如 


将 “try” 转 换 为 “tri”; 第 三 步 ,对 整合 多 个 词 级 的 复合 
词 级 进行 处 理 , 将 这 类 词缀 转化 为 非 复合 后 级 ,例如 
将 “generalization” 转 换 为 “generalize”。 本 算法 对 复 
合 词缀 到 非 复合 后 缀 的 映射 规则 进行 了 重 编码 ;第 四 
步 , 删 除 简 单 的 非 复合 后 缀 ,通过 定义 的 编码 规则 对 
现存 词 干 进行 归 一 化 ,例如 将 上 一 步 得 到 的 “general- 
ize” 转 换 为 “general”。 这 两 步 主 要 对 单词 的 派生 形 
态 进行 处 理 。 第 五 步 , 处 理 不 满足 以 上 编码 规则 的 不 
规则 词 ,通过 与 补充 的 规则 转化 表单 词 进行 遍历 匹配 
来 完成 对 不 规则 词 的 词 干 提取 ;最 后 ,在 处 理 完 不 规 
则 词 的 基础 上 ,根据 重 编码 后 的 新 规则 去 除 单词 末尾 
的 -e 或 -1, 最 终 得 到 词 干 。 


的 处 理 进 


行 是 


岗 则 进行 重 编码 
将 复合 词 级 转化 为 非 复合 词 级 
删除 非 复 合 词缀 


补充 对 不 规则 词 的 处 理 


重 编码 -< 和 -! 的 去 除 规则 


图 1 APS 算法 流程 


3 基于 SAAT 策略 的 随时 排序 算法 SAR 


搜索 引擎 在 海量 数据 中 检索 到 满足 用 户 查 询 要 
求 的 文档 是 一 项 非常 耗 时 的 任务 。 研 究 表明 -9 ,在 
谷歌 搜索 中 人 为 对 查询 时 间 延 长 100 一 400 ms ,用户 
每 天 的 搜索 次 数 减少 0.2%~0.6%. BAM Abe et 
询 延 迟 的 方法 往往 是 将 文档 划分 到 多 个 服务 器 ,每 个 
服务 器 分 担 部 分 时 间 延 迟 ,但 查询 的 延迟 时 间 仍 不 可 
忽视 。 基 于 对 提升 用 户 体 验 的 考虑 ,分 析 发 现 ,通过 
牺牲 可 接受 范围 的 搜索 质量 能 够 在 任意 给 定时 间 限 
制 的 情况 下 ,向 用 户 查 询 返 回 较 为 准确 的 文档 排名 ， 
并 且 随 着 计算 时 间 的 延长 ,结果 质量 成 正比 增长 。 在 
此 基础 上 ,基于 SAAT 查询 处 理 策略 设计 了 随时 排 
序 算法 SAR。 该 算法 能 够 在 处 理 完 指定 数量 的 倒 排 
项 后 或 给 定时 间 内 提前 终止 查询 过 程 ,大 大 减少 查询 
评估 延迟 时 间 。 

在 SAR 算 法 实现 的 基于 影响 力 排序 索引 中 , 文 
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档 标识 符 按 照 每 个 词 对 于 文档 的 实际 贡献 得 分 分 段 ， 
每 段 以 文档 标识 符 升序 排列 ,而 段 按照 影响 力 分 数 降 
序 进行 排列 ,最 终 将 影响 力 分 数 的 top-k 结果 返回 。 


3.1 影响 力 分 数 与 词 项 权重 量化 


定义 8 影响 力 分 数 (impact score, 简称 IS). 
给 定 查询 g ,文档 ,那么 查询 g 中 文档 4 的 影响 力 
分 数 可 表示 为 
ISa. = > oah ° Wega)? (2) 
td N 


FOP wan WI ¢ IFI d 的 权重 ,在 索引 建立 
过 程 中 被 量化 到 bp 字 节 中 ,在 SAR 算法 中 设置 为 8; 
ww. 为 词 项 + 对 于 查询 词 g 的 权重 。 

对 于 词 项 的 量化 标准 ,SAR 算法 采用 了 由 Anh 
SOT HEH OEE TT : 


WW (dq,1) = M win ca, 


I, . 
d.t) 
M maxw (dit) M minw a.n 


xe l. G) 


52 索引 的 组 织 方式 


中 〇 索引 的 组 织 方式 如 下 ,单词 字典 中 的 每 个 查询 词 
项 蕴 向 倒 排列 表 , 倒 排 列表 中 的 倒 排 项 由 类 似 
{Segre, start, end, num} 的 四 元 组 组 成 , 称 之 为 段 
(Segment), 其 中 段 的 第 一 项 score 代表 影响 力 分 
数 , 第 二 项 start 代表 指向 段 数据 首部 的 指针 ,第 三 项 
er 还 代表 指向 段 数据 尾部 的 指针 ,包含 在 段 数据 中 的 
双亲 数量 则 由 变量 num 存储 。 每 个 词 项 的 段 都 按照 
以 段 中 存储 的 score 值 降序 .文档 标识 符 升序 排列 。 


3.S SAAT 评估 策略 


“基于 以 上 影响 力 分 数 计算 以 及 索引 组 织 方式 ,应 
用 查询 评估 策略 SAAT。 在 SAAT 查询 处 理 机 制 的 
前 枝 方法 中 ,定义 了 4 种 查询 处 理 模式 : 

定义 9 OR 模式 。 在 该 模式 下 ,所 有 文档 都 将 
分 配 分 数 累 加 器 , 且 都 会 进行 得 分 统计 。 

定义 10 AND 模式 。 若 转换 为 该 模式 , 则 出 现 
的 新 文档 不 再 被 分 配 分 数 累 加 器 ,只 针对 已 被 分 配 累 
加 器 的 文档 进行 分 数 累 计 操作 。 

定义 11 REFINE 模式 。 该 模式 应 用 的 前 提 
是 ,top-k 的 文档 已 经 确定 ,但 最 终 顺序 还 未 确定 。 此 
时 ,得 分 累加 只 针对 top-k 的 文档 。 

定义 12 IGNORE 模式 。 在 该 模式 下 ,停止 对 
所 有 文档 的 得 分 进行 递 加 ,查询 处 理 过 程 终止 。 

首先 获取 与 查询 词 项 相关 的 倒 排列 表 段 ,然后 根 
据 段 中 存储 的 score 值 进行 降序 排列 ,并 按照 此 顺序 
对 有 段 进行 处 理 。 对 于 段 中 的 每 个 文档 标识 符 , 其 影响 
力 分 数值 由 文档 对 应 的 累加 器 存储 ,而 在 处 理 过 程 中 


累加 器 中 的 值 通 过 维护 一 个 堆 来 实时 获取 top 的 
结果 。 每 当 将 当前 影响 力 分 数值 添加 到 累加 器 时 , 通 
过 与 堆 顶 值 进行 判断 可 决定 是 否 将 指向 累加 器 的 指 
针 添 加 到 堆 中 。 

由 于 实时 地 维护 了 影响 力 值 最 大 的 top-k 个 文 
档 结果 ,因此 能 够 在 任意 给 定时 间或 给 定 处 理 倒 排列 
表 项 的 数量 终止 算法 ,返回 给 用 户 检 索 结 果 。 另 外 ， 
段 会 按照 优先 度 依 次 递减 的 顺序 处 理 , 优 先 度 由 词 项 
的 分 数 贡献 值 决 定 , 因 此 排名 情况 会 随 着 查询 进展 逐 
步 细 化 。 若 查询 时 间 预 算 增 加 , 则 输出 结果 的 质量 也 
成 正比 提升 。 


3.4 提前 终止 阔 值 参数 y 


在 处 理 段 的 过 程 中 ,SAR 算法 维护 已 处 理 文档 
影响 力 得 分 的 累加 值 。 在 下 一 个 段 处 理 之 前 ,首先 与 
7 进行 比较 , 若 大 于 7 值 , 则 跳出 循环 ,然后 从 堆 中 获 
取 top-k 的 结果 ;者 小 于 7 值 , 则 流程 继续 。 

基于 以 上 原理 介绍 , SAR 算法 的 核心 代码 如 算 
法 1 所 示 。 

算法 1 SAR 算 法 
输入 :根据 影响 力 得 分 值 进 行 排序 的 段 遍 历 器 工 = 

{Ly sLostt L, } ,返回 的 文档 结果 数 率 。 
输出 :影响 力 得 分 值 top-k 的 文档 号 及 其 分 数 。 


l. AC<{ };T<{ RE<  };mod<-OR; 
2: 计算 每 个 词 项 : 的 npb,; 

3. for ik’; i>0; ix-i—1 do 

4, for each (t,d ,wa.») in block i=, * wo do 
5. if mod=OR or AC, >0 then 

6. AC <—ACa +i;Ta<T, U tt}; 

T: 更 新 npb,; 

8. if Score=>>){npb, |t Eq} then 

和 mod< AND; 

10. if Score==max{MAX, |d€ AC.d ER} then 
11. mod<-REFINE; 

12. for each d EAC andd€R do 

13. AC<-AC—AC,; 

14, if AC; 2MAX,;,(j ER) then 

1; break; 


16. return 累加 器 中 得 分 最 高 的 & 个 文档 的 文档 号 。 

SAR 算法 核心 代码 如 算法 1 所 示 。 步 又 1 使 用 
OR 模式 对 各 个 查询 词 项 对 应 倒 排 表 中 分 数 高 的 段 
进行 处 理 ; 步 又 2 一 11, 计 算 每 个 词 项 上 对 应 倒 排 表 
中 未 处 理 块 的 最 大 分 数 , 即 npb,。 当 文档 得 分 大 于 
npb, 时 ,将 OR 模式 改 用 AND 模式 ;步骤 12 一 13， 
若 文档 得 分 大 于 所 有 文档 的 最 大 得 分 , 即 满足 条 件 
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Score==max{MAX, |d EAC, DERF, KREIRA 
REFINE 模型 进行 处 理 。 其 中 ,AC 为 现 有 累加 器 集 
合 , 保 存 文档 号 及 文档 的 部 分 得 分 ,M 为 文档 4 的 
最 大 得 分 ,由 AC 保存 的 分 数 累 加 得 到 , 即 MAX, = 
AC tÈ (npbaltEq:t ETa); BR 14~15,. BE 
现 有 累加 器 集合 中 的 累加 分 数 大 于 文档 d 的 最 大 分 
数 , 则 此 时 查询 可 以 提前 终止 ,采用 IGNORE 模式 。 
最 终 得 到 累加 器 中 得 分 最 高 的 top 个 文档 。 


4 实验 评估 


对 APS 算法 和 SAR 算法 分 别 进 行 评 佑 。 

针对 APS 算法 ,使 用 误差 计数 法 对 APS 算法 以 
及 优化 前 的 波 特 词 干 算法 进行 评估 ,利用 该 方法 通过 
评 算 词 干 提取 不 足 指数 (understemming index, 简称 
uU 词 干 提取 过 度 指 数 (overstemming index, 简称 
ee rate relative to trun- 
cation, ,简称 ERRT)3 个 指标 对 APS 算法 的 词 干 提 
取 准 确 率 进行 评价 ， 最 后 在 2 个 数据 样本 上 进行 实验 
验证 ,并 与 现 有 词 干 算法 进行 对 比 。 

工 ,针对 SAR 算法 ,在 2 个 真实 的 大 型 TREC 标准 
疲 据 集 上 进行 实验 验证 , 通 过 检索 质量 评价 指标 nD- 
CC® 10 对 SAR 算法 进行 评估 ,并 说 明了 在 给 定时 
MIRU F KARER, 减少 的 倒 排 段 处 理 数量 等 。 


Ae Sr 实验 环境 及 数据 集 


= 加 实验 的 硬件 环境 为 Intel® Xeon® CPU E3-1226 

En GHz 和 256 GiB 内 存 ;软件 环境 为 Red Hat 
Enterprise Linux 6, 

针对 APS 算法 的 评估 ,实验 在 2 个 真实 数据 集 
上 开展 ,数据 集 基 本 信息 如 下 : 

1) Word List A: 来 自 于 Paice 官方 网 站 ,最 初 用 
于 Paice 评估 ,包含 约 10 000 个 词 。 词 汇 样本 取 自 于 
图 书 情报 学 相关 的 CISI 测试 集 。 

2)Word List B: 由 Scrabble 单词 检查 需 中 使 用 
的 单词 列表 编译 而 成 ,该 样本 包含 约 20 000 个 单词 。 

针对 SAR 算法 的 评 佑 ,实验 在 2 个 标准 TREC 
测试 集 ClueWeb09 数据 集 ClueWeb12-B13 进行 。 
通过 检索 质量 评价 指标 nDCG@ 10 对 SAR 算法 进 
行 评 估 。 数 据 集 的 文档 数量 和 实验 所 用 到 的 TREC 
主题 如 表 7 所 示 。 


表 7 TREC 数据 集 及 主题 


数据 集 文档 数量 TREC 主题 
ClueWeb09b 50 220 189 51~200 
ClueWeb12-B13 52 343 021 201~300 


另外 ,本 实验 对 数据 集中 的 每 个 文档 进行 了 如 下 
处 理 : 将 所 有 无 效 UTF-8 字符 转换 成 了 空格 ,同时 对 
字母 字符 与 数字 字符 进行 分 离 ,并 剔除 了 标记 标签 。 


4.2 APS 算法 评价 


在 2 个 数据 集 样本 上 对 APS 算法 进行 实验 。 首 
先 , 为 了 形成 对 照 ,将 改进 后 的 APS 算 法 与 改进 前 的 
Porter Stemmer 算法 进行 评估 对 比 ; 之 后 ,在 数据 集 
上 对 现 有 的 词 干 分 析 算 法 Paice/ Husk 及 Lovins 也 
进行 了 对 比 测试 ,作为 数据 参考 。 通 过 实验 验证 得 
知 , 与 现 有 词 干 分 析 算法 相 比 ,APS 算法 提高 了 对 查 
询 词 词 干 提取 的 准确 率 , 实 验 结果 如 图 2 所 示 。 

以 Word List A 数据 样本 为 观察 对 象 ,图 2(b)、 
(c) 中 ,APS 算 法 与 改进 前 的 波 特 词 干 算法 相 比 , 词 
干 不 足 指 数 UI 降低 了 约 48. 4%, 相 对 截断 错误 率 
ERRT 降低 了 约 28%。UI 值 的 改善 说 明 APS 算法 
能 对 更 多 相关 词 合并 成 同一 词 干 ,例如 对 于 单词 “a- 
bility” 和 “able” 的 处 理 , 改 进 前 的 波 特 词 干 算法 并 不 
会 将 其 归 为 同一 词 干 群 。 图 2(a) 中 OI 值 之 所 以 相 
对 改进 前 有 所 提升 ,是 因为 APS 算法 调整 规则 函数 


后 删除 了 许多 重要 词缀 ,这 对 OI 值 造成 了 影响 。 实 
际 上 UI 值 的 改善 会 在 一 定 程度 上 影响 OI 值 ,导致 


词 干 提取 过 度 , 但 影响 的 单词 数 较 少 。 因 此 ,根据 
ERRT 值 对 总 体 相 对 准确 性 的 评估 来 看 , APS 算法 
对 于 词 干 提取 的 效果 要 优 于 波 特 词 干 算 法 。 

以 Word List B 数据 样本 作为 观察 对 象 。 由 图 2 
Ce) (DEJA, APS 算法 较 改 进 前 , 词 干 不 足 指 数 UI 
降低 了 约 54. 6% ,相对 阶段 错误 率 ERRT 降低 了 约 
30. 2%。 可 以 发 现 ,在 Word List B 数据 样本 中 ， 
APS 算法 对 于 词 干 提取 的 准确 率 具 有 较 大 的 提升 ， 
能 够 将 更 多 的 相关 词 统 一 成 同一 词 干 。 

除 此 之 外 ,通过 和 Lovins、Paice/ Husk 算法 对 比 
可 知 ,APS 算法 表现 更 佳 ,其 中 相对 截断 错误 率 的 数 
据 表明 ,APS 算 法 相对 于 其 他 的 词 干 提取 算法 ,有 效 
提升 了 词 干 提取 准确 率 。 


4.3 SAR 算法 评价 


对 于 2 个 评价 数据 集 ,将 前 十 个 主题 用 于 训练 线 
性 模型 ,其余 主题 用 于 测试 。 评 价 效率 的 指标 只 包括 
引擎 框架 生成 top-k 结果 花费 的 时 间 , 即 查询 延迟 时 
间 ,不 包括 将 单词 字典 、 倒 排列 表 加 载 到 主 存储 器 的 
启动 成 本 以 及 写 和 人 输出 文件 的 时 间 。 查 询 延 迟 时 间 
通过 chrono 库 进 行 测量 ,检索 质量 选用 nDCG@ 10 
作为 度量 指标 。 

通过 将 倒 排 项 数量 7 分 别 设置 为 10 、10° 、10"、 
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Stemmer 


(e) WordList B 上 词 干 提取 不 足 指数 


Stemmer 


(f) WordList B 上 相对 截断 错误 率 


2 APS 算 法 词 干 提取 准确 率 评价 


107 以 及 10° 观察 nDCG@10 的 变化 ,从 而 确定 倒 排 
项 数量 7 的 最 佳 取 值 。 图 3 为 在 给 定 处 理 倒 排 项 数 
量变 化 时 ,nDCG@10 指标 的 变化 情况 。 由 图 3 可 
知 ,在 不 显著 影响 检索 质量 的 情况 下 ,SAR 算法 有 效 
减少 了 需要 处 理 的 倒 排 段 数量 。 通 过 分 析 折 线 趋 势 
可 以 发 现 ,将 7 设置 为 数据 集 大 小 的 10% 最 为 合理 ， 
因为 在 /一 107 与 ?一 108 时 ,指标 nDCG@10 数据 表 
现 效果 不 相 上 下 。 由 上 一 步 分 析 得 到 最 佳 取 值 范 
围 后 ,在 此 基础 上 用 2 个 测试 集合 ClueWeb09b 和 
ClueWeb12-B13 的 前 10 个 主题 训练 模型 ,记录 在 给 
定时 间 预 算 的 情况 下 ,查询 的 延迟 时 间 和 处 理 的 倒 排 
段 数量 。 由 此 模型 来 预测 在 给 定时 间 预 算 下 7 的 最 


佳 取 值 。 数 据 集 ClueWeb09b 和 数据 集 ClueWeb12- 
B13 符合 线性 回归 的 特点 ,其 线性 模型 包括 恒定 的 开 
销 和 每 个 倒 排 段 的 处 理 成 本 。 通 过 最 终 的 线性 模型 ， 
确定 7 适当 的 取 值 后 ,将 时 间 预 算 分别 设 置 为 25、 
50、100、150、200 ms。 在 此 条 件 下 进行 3 次 测试 取 平 
均值 ,最 终 SAR 算法 在 2 个 数据 集 上 的 检索 质量 如 
Al 4 和 图 5 所 示 。 

图 4 和 图 5 中 max 取 值 由 双 侧 配对 随机 化 测验 
得 到 ,并 作为 标准 值 来 体现 相对 有 效 性 差异 。 由 图 4 
和 图 5 可 看 出 ,在 给 定时 间 预 算 下 ,SAR 算法 检索 质 
量 有 一 定 程度 的 下 降 , 但 在 可 接受 范围 内 ;由 图 中 折 
线 的 总 体 趋势 可 以 发 现 , 随 着 给 定 预算 时 间 的 延迟 ， 
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图 3 给 定 倒 排 项 数量 7 时 的 nDCG@10 指数 
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5 ClueWeb1209b ERY nDCG@10 指数 


检索 质量 也 相应 提升 。 另 外 ,由 2 个 图 的 数据 对 比 可 
知 ,在 数据 集 ClueWeb12-B13 上 处 理 所 有 倒 排 项 所 
花费 的 时 间 要 比 数据 集 ClueWeb09b 要 长 ,这 说 明 在 
相同 的 时 间 预 算 下 ,数据 集 越 大 ,有 效 性 折 损 也 越 大 ， 
此 ,ClueWeb12-B13 的 nDCG@10 指标 折 损 更 多 。 

图 6 和 图 7 为 在 2 个 数据 集 上 的 平均 延迟 时 间 ， 
图 8 和 图 9 为 在 2 个 数据 集 上 的 提前 终止 倒 排 段 的 
数量 与 倒 排 段 总 数量 。 由 图 6 一 9 可 知 ,SAR 算法 通 
过 在 给 定 查 询 时 间 内 提前 终止 查询 过 程 ,大 大 减少 了 
倒 排 项 的 处 理 数量 ,从 而 有 效 减 少 了 查询 延迟 时 间 。 

表 8 和 表 9 为 2 个 数据 集 上 未 处 理 的 主题 数 与 
给 定 查 询 时 间 下 的 超时 时 间 。 
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6 ClueWeb12-B13 上 的 平均 查询 延迟 时 间 


Emax ™ClueWeb12-B13 


25 50 100 150 200 
时 间 预 算 /ms 


7 ClueWeb09b 上 的 平均 查询 延迟 时 间 
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8 ClueWebl2-B13 上 的 提前 终止 数量 与 总 数量 


由 上 述 实 验 结果 分 析 可 知 , SAR 算法 在 特殊 情 
况 下 存在 略微 的 延迟 ,总 体 来 看 影响 并 不 大 ,但 在 控 
制 查询 延迟 时 间 方 面 效 果 显著 。 另 外 , 随 着 预算 时 间 
的 增加 ,检索 质量 也 相应 成 正比 提升 ,虽然 存在 一 定 
程度 的 检索 质量 下 降 , 但 在 可 接受 的 范围 内 。 实 验 结 
果 也 验证 了 SAR 算法 对 控制 尾部 延迟 的 有 效 性 ,能 
够 减少 计算 资源 的 消耗 , 且 对 于 用 户 体 验 的 提升 也 有 
一 定 帮助 。 
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E max = ClueWeb09b 


时 间 预 算 /ms 


0 50 100 150 
提前 终止 数量 与 总 数量 


图 9 ClueWeb09b 上 的 提前 终止 数量 与 总 数量 


表 8 ClueWeb09b 数据 集 上 未 处 理 主题 数 与 超时 时 间 
er 
预算 时 间 /ms 未 处 理 主题 数 平均 超时 时 间 /ms 最 大 超时 时 间 /ms 


OO 47 0.78 2.3 
© 

50 3 0.75 1.5 
N 
© o 0 0 0 
O50 0 0 0 
Qo 0 0 0 


RS ClueWeb12-B13 数据 集 上 未 处 理 主题 数 与 超时 时 间 


TH /ms 未 处 理 主题 数 平均 超时 时 间 /ms 最 大 超时 时 间 /ms 


25 74 0. 63 1:2 
> 
se” 46 1.2 3.4 
fas 0 1.8 3.7 
C50 0 0 0 
FE 
-200 0 0 0 


基于 APS 算 法 对 文本 预 处 理 进行 了 优化 ,并 基 
F SAAT 策略 设计 了 随时 排序 算法 SAR, 在 数据 集 
上 的 实验 结果 达到 了 预期 的 效果 ,但 考虑 到 时 代 环 境 
的 需求 变化 以 及 对 各 种 场景 的 适用 情况 ,该 检索 系统 
的 扩展 未 来 还 有 一 定 的 优化 空间 ,需要 相关 的 研究 和 
工作 支持 。 为 此 ,从 几 个 方面 提出 了 需要 进一步 研究 
与 探讨 的 工作 点 : 

首先 ,针对 倒 排 索引 ,可 以 考虑 利用 数据 压缩 算 
法 对 其 进行 压缩 ,以 减少 索引 占用 的 磁盘 空间 ,进而 
降低 磁盘 读 写 数据 的 时 间 开 销 。 在 之 后 的 工作 中 可 
以 在 该 检索 系统 中 添加 一 个 简单 有 效 的 解 编码 器 , 例 
如 基于 单 指令 多 数据 流 (single instruction multiple 
data, 简 称 SIMD) 的 解 编码 器 ,将 压缩 和 解压 的 
过 程 并 行 化 ,以 实现 存储 空间 的 减少 和 访问 速度 的 
提升 。 


其 次 ,由 于 文档 长 度 存在 不 确定 性 , 词 频 存在 随 
机 性 ,为 提高 对 文档 中 稀有 词 项 的 建 模 能 力 , 实 现 带 
有 Dirichlet 平滑 (dirichlet smoothing, 简 称 DiS) 方 
法 或 JM 平滑 方法 (jelinek-mercer smoothing, 简称 
JMS) 的 语言 模型 也 是 可 行 的 优化 点 之 一 。 对 文 
档 和 查询 项 进行 语言 建 模 后 ,不仅 能 够 提高 估计 文档 
语言 模型 的 准确 性 ,而 且 也 能 适应 查询 中 非常 用 词 的 
生成 。 

最 后 ,可 以 针对 用 户 接口 设计 更 利于 用 户 体验 的 
界面 。 目 前 本 文 检 索 系 统 的 接口 尚且 基于 文本 ,后 期 
可 以 通过 HTML 界面 来 实现 用 户 交 互 接口 。 用 户 
在 界面 展示 的 文本 框 中 输入 查询 词 后 ,搜索 的 结果 能 
够 通过 该 界面 进行 展示 以 供 阅读 .分析 和 判断 。 对 交 
互 接口 进行 优化 能 够 丰富 表现 信息 的 形式 ,便于 用 户 
多 方式 高 效 接收 信息 ,从 而 进一步 提升 用 户 体 验 。 


6 结束 语 


针对 文本 预 处 理 阶 段 , 设 计 了 优化 的 词 干 分 析 算 
法 APS, 基 于 派生 形态 学 调整 了 规则 函数 的 定义 , 改 
善 了 波 特 词 干 算法 存在 的 词 干 提取 不 足以 及 准确 率 
不 理想 的 问题 ,并 通过 实验 验证 了 APS 算法 在 提升 
词 干 提取 准确 率 的 有 效 性 。 另 外 ,针对 相关 排序 阶 
BET SAAT 查询 策略 设计 了 随时 排序 算法 SAR, 
能 够 在 给 定时 间 预 算 或 给 定 处 理 的 倒 排 段 数 量 的 情 
况 下 ,提前 终止 检索 过 程 ,减少 不 必要 的 时 间 消 耗 , 有 
效 控制 查询 延迟 ,返回 较为 准确 的 检索 结果 。 在 2 个 
大 规模 TREC 数据 集 上 的 实验 结果 验证 了 SAR 算 
法 对 于 控制 尾部 延迟 时 间 的 有 效 性 。 最 后 ,本 文 提出 
了 若干 可 行 的 研究 点 ,为 未 来 的 工作 指明 了 方向 。 
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